智能论文笔记

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

Boundary Guided Semantic Learning for Real-time COVID-19 Lung Infection Segmentation System

Runmin Cong , Yumo Zhang , Ning Yang , Haisheng Li , Xueqi Zhang , Ruochen Li , Zewen Chen , Yao Zhao , Sam Kwong

分类：计算机视觉

2022-09-07

尽管已经开发了疫苗，并且国家疫苗接种率正在稳步提高，但2019年冠状病毒病（COVID-19）仍对世界各地的医疗保健系统产生负面影响。在当前阶段，从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展，已经提出了一些针对肺部感染细分的深度学习解决方案。但是，由于分布分布，复杂的背景干扰和界限模糊，现有模型的准确性和完整性仍然不令人满意。为此，我们在本文中提出了一个边界引导的语义学习网络（BSNET）。一方面，结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系，从而促进产生更完整的分割结果。另一方面，提出了镜像对称边界引导模块，以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明，我们的BSNET优于现有的最新竞争对手，并实现了44 fps的实时推理速度。

translated by 谷歌翻译

Mastering Autonomous Assembly in Fusion Application with Learning-by-doing: a Peg-in-hole Study

Ruochen Yin , Huapeng Wu , Ming Li , Yong Cheng , Yuntao Song , Heikki Handroos

分类：机器人

2022-08-24

机器人钉孔组装是机器人自动化研究中的重要任务。加强学习（RL）与深度神经网络（DNN）相结合，导致了这一领域的非凡成就。但是，在融合应用程序的独特环境和任务要求下，当前基于RL的方法几乎无法表现出色。因此，我们提出了一种新设计的基于RL的方法。此外，与其他方法不同，我们专注于DNN的结构而不是RL模型的创新。从RGB摄像机和力/扭矩（F/T）传感器中输入的数据，将其输入到多输入分支网络中，并且当前状态中的最佳动作是由网络输出的。所有训练和实验都是在现实的环境中进行的，从实验结果中，这种多传感器融合方法已显示在不确定和不稳定的环境中具有0.1mm精度的刚性钉钉组装任务中很好地工作。

translated by 谷歌翻译

A Tool for Neural Network Global Robustness Certification and Training

Zhilu Wang , Yixuan Wang , Feisi Fu , Ruochen Jiao , Chao Huang , Wenchao Li , Qi Zhu

分类：机器学习

2022-08-15

随着对安全至关重要系统中的机器学习技术的兴趣的增加，外部干扰下的神经网络的鲁棒性越来越多。全局鲁棒性是整个输入域上定义的鲁棒性属性。并且经过认证的全球稳健网络可以确保其在任何可能的网络输入上的稳健性。但是，最先进的全球鲁棒性认证算法只能与最多几千个神经元进行认证。在本文中，我们提出了GPU支持的全球鲁棒性认证框架杂货店，该框架比以前基于优化的认证方法更有效。此外，Grocet提供了可区分的全球鲁棒性，这是在全球强大神经网络的培训中利用的。

translated by 谷歌翻译

Multiclass-SGCN: Sparse Graph-based Trajectory Prediction with Agent Class Embedding

Ruochen Li , Stamos Katsigiannis , Hubert P. H. Shum

分类：计算机视觉

2022-06-30

在现实世界中，道路使用者的轨迹预测很具有挑战性，因为它们的运动模式是随机且复杂的。以前以行人为导向的作品已经成功地模拟了行人之间的复杂交互作用，但是当涉及其他类型的道路使用者（例如，汽车，骑自行车的人等）时，无法预测轨迹，因为他们忽略了用户类型。尽管最近的一些作品与用户标签信息构建了密集连接的图形，但它们遭受了多余的空间相互作用和时间依赖性。为了解决这些问题，我们提出了多类SGCN，这是一种基于稀疏的图形卷积网络的多级轨迹预测方法，该方法考虑了速度和代理标签信息，并使用新颖的交互掩码来适应基于空间和时间连接的基础。在他们的互动分数上。所提出的方法在斯坦福无人机数据集上大大优于最先进的方法，提供了更现实和合理的轨迹预测。

translated by 谷歌翻译

CLIP-Event: Connecting Text and Images with Event Structures

Manling Li , Ruochen Xu , Shuohang Wang , Luowei Zhou , Xudong Lin , Chenguang Zhu , Michael Zeng , Heng Ji , Shih-Fu Chang

分类：计算机视觉 | 人工智能

2022-01-13

Vision-Language（V + L）预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象，但它们通常会忽略事件级别的对齐及其参数结构。％在这项工作中，我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数（参与者）角色。为此，我们利用文本信息提取技术来获得事件结构知识，并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外，我们收集了一个大型活动的数据集（106,875张图片），用于预磨平，这提供了更具挑战性的图像检索基准，以评估对复杂冗长的句子的理解。实验表明，我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型，从而实现了事件提取中的5±绝对f得分增益，以及显着改进零拍摄设置下的各种下游任务。

translated by 谷歌翻译

UniSumm: Unified Few-shot Summarization with Multi-Task Pre-Training and Prefix-Tuning

Yulong Chen , Yang Liu , Ruochen Xu , Ziyi Yang , Chenguang Zhu , Michael Zeng , Yue Zhang

分类：自然语言处理

2022-11-17

The diverse demands of different summarization tasks and their high annotation costs are driving a need for few-shot summarization. However, despite the emergence of many summarization tasks and datasets, the current training paradigm for few-shot summarization systems ignores potentially shareable knowledge in heterogeneous datasets. To this end, we propose \textsc{UniSumm}, a unified few-shot summarization model pre-trained with multiple summarization tasks and can be prefix-tuned to excel at any few-shot summarization datasets. Meanwhile, to better evaluate few-shot summarization systems, under the principles of diversity and robustness, we assemble and publicize a new benchmark \textsc{SummZoo}. It consists of $8$ diverse summarization tasks with multiple sets of few-shot samples for each task, covering both monologue and dialogue domains. Experimental results and ablation studies show that \textsc{UniSumm} outperforms strong baseline systems by a large margin across all tasks in \textsc{SummZoo} under both automatic and human evaluations. We release our code and benchmark at \url{https://github.com/microsoft/UniSumm}.

translated by 谷歌翻译

Efficient Non-Parametric Optimizer Search for Diverse Tasks

Ruochen Wang , Yuanhao Xiong , Minhao Cheng , Cho-Jui Hsieh

分类：机器学习 | 人工智能 | 计算机视觉 | (统计)机器学习

2022-09-27

优化器的高效和自动化设计在全栈自动系统中起着至关重要的作用。但是，优化器搜索中的先前方法通常受其可扩展性，生成性或样品效率的限制。为了将优化器搜索的研究和应用民主化，我们提出了第一个有效，可扩展和可推广的框架，可以直接搜索感兴趣的任务。我们首先观察到优化器更新从根本上是数学表达式应用于梯度。受到基础数学表达式的先天树结构的启发，我们将优化器的空间重新安排到一个超树中，每个路径都编码优化器。这样，优化器搜索可以自然地作为路径找到问题，从而使各种建立的树遍历方法可以用作搜索算法。我们采用蒙特卡洛方法的改编来进行树木搜索，配备拒绝采样和等效形式检测，以利用优化器更新规则的特征来进一步提高样本效率。我们提供了一套多种任务，以基于我们的算法进行基准测试，并证明，只有128个评估，提出的框架可以发现超过人类设计的对应方和先前的优化器搜索方法的优化器。

translated by 谷歌翻译

EMA-VIO: Deep Visual-Inertial Odometry with External Memory Attention

Zheming Tu , Changhao Chen , Xianfei Pan , Ruochen Liu , Jiarui Cui , Jun Mao

分类：计算机视觉 | 机器人

2022-09-18

准确而健壮的本地化是移动代理的基本需求。视觉惯性进程（VIO）算法将信息从摄像机和惯性传感器中利用到估计位置和翻译。最近基于深度学习的VIO模型以数据驱动的方式提供姿势信息，而无需设计手工制作的算法，因此吸引了注意力。现有的基于学习的VIO模型依赖于经常性模型来融合多模式数据和过程传感器信号，这些模型很难训练并且不够有效。我们提出了一个基于学习的新型VIO框架，并有效地结合了视觉和惯性特征，以供各州估计。我们提出的模型也能够准确，稳健地估计，即使在具有挑战性的情况下，例如在阴天和充满水的地面上，对于传统的Vio算法而言，这很难提取视觉特征。实验验证了它在不同场景中的表现优于传统和基于学习的VIO基线。

translated by 谷歌翻译

Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization

Pengcheng He , Baolin Peng , Liyang Lu , Song Wang , Jie Mei , Yang Liu , Ruochen Xu , Hany Hassan Awadalla , Yu Shi , Chenguang Zhu

分类：自然语言处理 | 人工智能

2022-08-21

本文介绍了Z-Code ++，这是一种针对抽象文本摘要优化的新的预训练的语言模型。该模型使用三种技术扩展了艺术编码器模型的状态。首先，我们使用两阶段的预训练过程来改善模型在低资源摘要任务上的性能。该模型首先是使用文本语料库进行语言理解的预先培训的，然后在汇总语料库中不断预先培训，以进行基础文本生成。其次，我们用分离的注意力层代替编码器中的自我发项层，其中每个单词都使用两个向量分别代表其内容和位置。第三，我们使用融合编码器，这是一种以层次方式编码长序列的简单而有效的方法。 Z-Code ++在13个文本摘要任务中的9个跨5种语言中创建了新的艺术状态。我们的模型的参数有效，因为它的表现优于XSUM上600倍较大的Palm-540b，并且在Samsum上的易经的200倍GPT3-175B较大。在零射击和少量设置中，我们的模型大大优于竞争模型。

translated by 谷歌翻译